% Version control information:
%$HeadURL: https://practicas-spss.googlecode.com/svn/trunk/intervalos_confianza_2_muestras/intervalos_confianza_2_muestras.tex $
%$LastChangedDate: 2010-09-27 16:37:11 +0200 (lun, 27 sep 2010) $
%$LastChangedRevision: 3 $
%$LastChangedBy: asalber $
%$Id: intervalos_confianza_2_muestras.tex 3 2010-09-27 14:37:11Z asalber $

\chapter[Intervalos de Confianza para la Comparación de 2 Poblaciones]{Intervalos de Confianza para la \\ Comparación de 2 Poblaciones}

\section{Fundamentos teóricos}

\subsection{Inferencia Estadística y Estimación de Parámetros}
El objetivo de un estudio estadístico es doble: describir la muestra elegida de una población en la que se quiere
estudiar alguna característica, y realizar inferencias, es decir, sacar conclusiones y hacer predicciones sobre la
población de la que se ha extraído dicha muestra.

La metodología que conduce a obtener conclusiones sobre la población, basadas en la información contenida en la muestra,
constituye la \emph{Inferencia Estadística}.

Puesto que la muestra contiene menos información que la población, las predicciones serán aproximadas. Por eso, uno de
los objetivos de la inferencia estadística es determinar la probabilidad de que una conclusión obtenida a partir del
análisis de una muestra sea cierta, y para ello se apoya en la teoría de la probabilidad.

Cuando se desea conocer el valor de alguno de los parámetros de la población, el procedimiento a utilizar es la
\emph{Estimación de Parámetros, }que a su vez se divide en \emph{Estimación Puntual}, cuando se da un único valor como
estimación del parámetro poblacional considerado, y \emph{Estimación por Intervalos}, cuando interesa conocer no sólo un
valor aproximado del parámetro sino también la precisión de la estimación. En este último caso el resultado es un
intervalo, dentro del cual estará, con una cierta confianza, el verdadero valor del parámetro poblacional. A este
intervalo se le denomina \emph{intervalo de confianza}. A diferencia de la estimación puntual, en la que se utiliza un
único estimador, en la estimación por intervalo emplearemos dos estimadores, uno para cada extremo del intervalo.

\subsection{Intervalos de Confianza}
Dados dos estadísticos muestrales $L_1$ y $L_2$, se dice que el intervalo $I=(L_1,\ L_2)$ es un \emph{Intervalo de
Confianza} para un parámetro poblacional $\theta$, con \emph{nivel de confianza} $1-\alpha$ (o \emph{nivel de
significación} $\alpha $), si la probabilidad de que los estadísticos que determinan los límites del intervalo tomen
valores tales que $\theta$ esté comprendido entre ellos, es igual a $1-\alpha$, es decir, \[ P\left( L_{1}<\theta
<L_{2}\right) =1-\alpha \]

Los extremos del intervalo son variables aleatorias cuyos valores dependen de la muestra considerada. Es decir, los
extremos inferior y superior del intervalo serían $L_{1}\left( X_{1},...,X_{n}\right) $ y $L_{2}\left(
X_{1},...,X_{n}\right) $ respectivamente, aunque habitualmente escribiremos $L_{1}$ y $L_{2}$ para simplificar la
notación. Designaremos mediante $l_{1}$ y $l_{2}$ los valores que toman dichas variables para una muestra determinada
$\left( x_{1},...,x_{n}\right).$

Cuando en la definición se dice que la probabilidad de que el parámetro $\theta $ esté en el intervalo $\left( L_{1},\
L_{2}\right) $ es $1-\alpha $, quiere decir que en el $100 \left( 1-\alpha \right) \ \% $ de las posibles muestras, el
valor de $\theta $ estaría en los correspondientes intervalos $\left( l_{1},\ l_{2}\right) .$

Una vez que se tiene una muestra, y a partir de ella se determina el intervalo correspondiente $\left( l_{1},\
l_{2}\right) $, no tendría sentido hablar de la probabilidad de que el parámetro $\theta $ esté en el intervalo $\left(
l_{1},\ l_{2}\right) $, pues al ser $l_{1}$ y $l_{2}$ números, el parámetro $\theta $, que también es un número, aunque
desconocido, estará o no estará en dicho intervalo, y por ello hablamos de confianza en lugar de probabilidad.

Así, cuando hablemos de un intervalo de confianza para el parámetro $\theta $ con nivel de confianza $1-\alpha $,
entenderemos que antes de tomar una muestra, hay una probabilidad $1-\alpha $ de que el intervalo que se construya a
partir de ella, contenga el valor del parámetro $\theta .$

Cuando se realiza la estimación de un parámetro mediante un intervalo de confianza, el nivel de confianza se suele fijar
a niveles altos (los más habituales son $0.90$, $0.95$ ó $0.99$), para tener una alta confianza de que el parámetro está
dentro del intervalo. Por otro lado, también interesa que la amplitud del intervalo sea pequeña para delimitar con
precisión el valor del parámetro poblacional (esta amplitud del intervalo se conoce como \emph{imprecisión} de la
estimación). Pero a partir de una muestra, cuanto mayor sea el nivel de confianza deseado, mayor amplitud tendrá el
intervalo y mayor imprecisión la estimación, y si se impone que la estimación sea más precisa (menor imprecisión), el
nivel de confianza correspondiente será más pequeño. Por consiguiente, hay que llegar a una solución de compromiso entre
el nivel de confianza y la precisión de la estimación. No obstante, si con la muestra disponible no es posible obtener un
intervalo de amplitud suficientemente pequeña (imprecisión pequeña) con un nivel de confianza aceptable, hay que emplear
una muestra de mayor tamaño. Al aumentar el tamaño muestral se consiguen intervalos de menor amplitud sin disminuir el
nivel de confianza, o niveles de confianza más altos manteniendo la amplitud.


\subsubsection{Intervalos de confianza para la diferencia de medias}
De igual manera a como ocurría con los intervalos de confianza para la media de una variable, apoyándose en conclusiones
extraídas del Teorema Central del Límite se puede demostrar que, en muestras grandes ($n_1\geq30$ y $n_2\geq30$),
procedentes de poblaciones de dos variables $X_1$ y $X_2$, con distribuciones no necesariamente Normales, de medias $\mu
_{1}$ y $\mu _{2}$ y desviaciones típicas $\sigma_{1}$ y $\sigma_{2}$ respectivamente, la variable \[Z= \dfrac{\left(
\overline{X}_{1}-\overline{X}_{2}\right) -(\mu _{1}-\mu _{2})}{\sqrt{\dfrac{\sigma _{1}^{2}}{n_{1}}+\dfrac{\sigma
_{2}^{2}}{n_{2}}}} \] sigue una distribución Normal tipificada, $N(0,\ 1)$.

De igual manera, si las varianzas de las variables son desconocidas, utilizando como estimadores muestrales sus
correspondientes cuasivarianzas $\hat S^2_{1}$ y $\hat S^2_{2}$, donde 
\[
\hat S_{1}^{2}= \dfrac{\sum \left( x_{1,i}-\overline{x}_{1}\right) ^{2}}{n_{1}-1}
\quad \text{y} \quad \hat S_{2}^{2}= \dfrac{\sum \left( x_{2,i}-\overline{x}_{2}\right) ^{2}}{n_{2}-1}
\]
entonces la variable 
\[
T= \dfrac{\left( \overline{X}_{1}-\overline{X}_{2}\right) -(\mu
_{1}-\mu_{2})}{\sqrt{\dfrac{\hat S_{1}^{2}}{n_{1}}+\dfrac{\hat S_{2}^{2}}{n_{2}}}}
\]
sigue una distribución $t$ de Student, en la que el número de grados de libertad dependerá de si las varianzas, aún
siendo desconocidas, pueden considerarse iguales o no.

Para muestras pequeñas ($n_1<30$ ó $n_2<30$), las distribuciones anteriores son también aplicables siempre que las
variables de partida sigan distribuciones Normales.

A partir de todo ello y teniendo en cuenta los tres factores de clasificación comentados: si las poblaciones de partida
en las que obtenemos las muestras siguen o no distribuciones Normales, si las varianzas de dichas poblaciones son
conocidas o desconocidas, y si la muestras son grandes o no, obtenemos las siguientes expresiones correspondientes a los
diferentes intervalos de confianza.


\subsubsection {Intervalo de confianza para la diferencia de dos medias en poblaciones normales, con varianzas
poblacionales conocidas, independientemente del tamaño de la muestra}
\[
\left( \overline{x}_{1}-\overline{x}_{2}-z_{\alpha /2}\cdot 
\sqrt{\dfrac{\sigma_{1}^{2}}{n_{1}}+\dfrac{\sigma_{2}^{2}}{n_{2}}}\ ,\
\overline{x}_{1}-\overline{x}_{2}+z_{\alpha/2}\cdot \sqrt{\dfrac{\sigma_{1}^{2}}{n_{1}}+\dfrac{\sigma
_{2}^{2}}{n_{2}}}\right)
\]

En la figura~\ref{intervalodiferencia} aparece un esquema explicativo de la construcción de este intervalo.

\begin{figure}[h!]
\begin{center}
\scalebox{0.8}{\input{intervalos_confianza_2_muestras/img/calculo_intervalo_confianza_diferencia_medias}}
\caption{Cálculo del intervalo de confianza para la diferencia de medias en poblaciones normales con varianzas conocidas a partir de la
distribución de la diferencia de medias muestrales $\bar{x_1}-\bar{x_2}\sim
N(\mu_1-\mu_2,\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}})$.}
\label{intervalodiferencia}
\end{center}
\end{figure}

\subsubsection {Intervalo de confianza para la diferencia de dos medias en poblaciones normales, con varianzas
poblacionales desconocidas, independientemente del tamaño de la muestra}
Si aún siendo desconocidas, las varianzas pueden considerarse iguales, el intervalo es:
\[
\left( \overline{x}_{1}-\overline{x}_{2}-t_{\alpha
/2}^{n_{1}+n_{2}-2}\cdot
\sqrt{s_{p}^{2}\left( \dfrac{1}{n_{1}}+\dfrac{1}{n_{2}}\right) }\ ,\ \overline{
x}_{1}-\overline{x}_{2}+t_{\alpha /2}^{n_{1}+n_{2}-2}\cdot \sqrt{
s_{p}^{2}\left( \dfrac{1}{n_{1}}+\dfrac{1}{n_{2}}\right) }\right)
\]
donde $s_{p}^{2}$ es una cuasivarianza ponderada:
\[
s_{p}^{2}=\dfrac{\left( n_{1}-1\right) \cdot \hat s_{1}^{2}+\left(n_{2}-1\right) \cdot
\hat s_{2}^{2}}{n_{1}+n_{2}-2}
\]

Si las varianzas, desconocidas, no pueden considerarse como iguales, el intervalo es:
\[
\left( \overline{x}_{1}-\overline{x}_{2}-t_{\alpha /2}^{\nu }\cdot \sqrt{
\dfrac{\hat s_{1}^{2}}{n_{1}}+\dfrac{\hat s_{2}^{2}}{n_{2}}}\ ,\
\overline{x}_{1}-\overline{x}_{2}+t_{\alpha /2}^{\nu }\cdot \sqrt{\dfrac{
\hat s_{1}^{2}}{n_{1}}+\dfrac{\hat s_{2}^{2}}{n_{2}}}\right)
\]
donde $\nu$ es el número entero más proximo al valor de la
expresión:
\[
\dfrac{\left( \dfrac{\hat s_{1}^{2}}{n_{1}}+\dfrac{\hat s_{2}^{2}}{
n_{2}}\right) ^{2}}{\dfrac{\left(
\dfrac{\hat s_{1}^{2}}{n_{1}}\right)^{2}}{n_{1}+1}+\dfrac{\left(\dfrac{\hat s_{2}^{2}}{n_{2}}\right) ^{2}}{n_{2}+1}}-2
\]

Si los tamaños muestrales son grandes ($n_{1}\geq30$ y $n_{2}\geq30$) las $t_{\alpha /2}^{\nu}$ y $t_{\alpha
/2}^{n_{1}+n_{2}-2}$ pueden sustituirse por $z_{\alpha/2}$.

\subsubsection {Intervalo de confianza para la diferencia de dos medias en poblaciones no normales, y muestras grandes
($n_{1}\geq30$ y $n_{2}\geq30$)} 
En este caso, como ya sucedía con la media muestral, los intervalos para la diferencia de medias son los mismos que sus
correspondientes en poblaciones normales y, de nuevo, habría que distinguir si las varianzas son conocidas o desconocidas
(iguales o diferentes), lo cual se traduce en que sus correspondientes fórmulas son las mismas que las dadas en los
párrafos anteriores. No obstante, por tratarse de muestras grandes, también es válida la aproximación de $t_{\alpha
/2}^{\nu}$ y $t_{\alpha /2}^{n_{1}+n_{2}-2}$ por $z_{\alpha/2}$, y habitualmente tan sólo se distingue entre varianzas
conocidas y desconocidas.

Para varianzas conocidas:
\[
\left( \overline{x}_{1}-\overline{x}_{2}-z_{\alpha /2}\cdot \sqrt{\dfrac{
\sigma _{1}^{2}}{n_{1}}+\dfrac{\sigma _{2}^{2}}{n_{2}}}\ ,\ \overline{x}_{1}-
\overline{x}_{2}+z_{\alpha /2}\cdot \sqrt{\dfrac{\sigma _{1}^{2}}{n_{1}}+
\dfrac{\sigma _{2}^{2}}{n_{2}}}\right)
\]

Y para varianzas desconocidas:
\[
\left( \overline{x}_{1}-\overline{x}_{2}-z_{\alpha /2}\cdot \sqrt{
\dfrac{\hat s_{1}^{2}}{n_{1}}+\dfrac{\hat s_{2}^{2}}{n_{2}}}\ ,\
\overline{x}_{1}-\overline{x}_{2}+z_{\alpha /2}\cdot \sqrt{\dfrac{
\hat s_{1}^{2}}{n_{1}}+\dfrac{\hat s_{2}^{2}}{n_{2}}}\right)
\]

Si las poblaciones de partida no son normales y las muestras son pequeñas, no puede aplicarse el Teorema Central de
Límite y no se obtienen intervalos de confianza para la diferencia de medias.

Para cualquiera de los anteriores intervalos:
\begin{itemize}[label=--]
\item $n_{1}$ y $n_{2}$ son los tamaños muestrales.
\item $\overline{x}_{1}$ y $\overline{x}_{2}$ son las medias muestrales.
\item $\sigma_{1} $ y $\sigma_{2} $ son las desviaciones típicas
poblacionales.
\item $\hat s_{1}$ y $\hat s_{2}$ son las cuasidesviaciones típicas muestrales: $\hat s_{1}^{2}=
\dfrac{\sum \left( x_{1,i}-\overline{x}_{1}\right) ^{2}}{n_{1}-1}$, y análogamente $\hat s_{2}^{2}$.
\item $z_{\alpha /2}$ es el valor que deja a su derecha una probabilidad $\alpha /2 $ en una distribución Normal
tipificada.
\item $t_{\alpha /2}^{n_{1}+n_{2}-1}$ es el valor que deja a su derecha una probabilidad $\alpha /2$ en una
distribución $t$ de Student con $n_{1}+n_{2}-1$ grados de libertad.
\item $t_{\alpha /2}^{\nu}$ es el valor que deja a su derecha una probabilidad $\alpha /2$ en una distribución $t$ de
Student con $\nu$ grados de libertad.
\end{itemize}

\subsubsection {Intervalos de confianza para la media de la diferencia en datos emparejados}
En muchas ocasiones hay que estudiar una característica en una población en dos momentos distintos, para estudiar cómo
evoluciona con el tiempo, o para analizar la incidencia de algún hecho ocurrido entre dichos momentos.

En estos casos se toma una muestra aleatoria de la población y en cada individuo de la misma se observa la característica
objeto de estudio en los dos momentos citados. Así se tienen dos conjuntos de datos que no son independientes, pues los
datos están emparejados para cada individuo. Por consiguiente, no se pueden aplicar los procedimientos vistos
anteriormente, ya que se basan en la independencia de las muestras.

El problema se resuelve tomando para cada individuo la diferencia entre ambas observaciones. Así, la construcción del
intervalo de confianza para la diferencia de medias, se reduce a calcular el intervalo de confianza para la media de la
variable diferencia. Además, si cada conjunto de observaciones sigue una distribución Normal, su diferencia también
seguirá una distribución Normal.

\subsubsection {Intervalos de confianza para la diferencia de dos proporciones poblacionales $p_1$ y $p_2$}
Para muestras grandes ($n_1\geq30~$ y $n_2\geq30~$) y valores de $p_1$ y $p_2$ (probabilidad de ``éxito'') cercanos a
$0.5$, las correspondientes distribuciones Binomiales pueden aproximarse mediante distribuciones Normales de medias
respectivas $n_1p_1$ y $n_2p_2$, y desviaciones típicas respectivas $\sqrt {n_1p_1(1-p_1)}$ y $\sqrt {n_2p_2(1-p_2)}$. En
la práctica, para que sea válida dicha aproximación, se toma el criterio de que tanto $n_1p_1$ y $n_2p_2$ como
$n_1(1-p_1)$ y $n_2(1-p_2)$ deben ser mayores que 5. Lo anterior hace que también podamos construir intervalos de
confianza para la diferencia de proporciones tomando éstas como medias de variables dicotómicas en las que la presencia o
ausencia de la característica objeto de estudio (``éxito'' ó ``fracaso'') se expresan mediante un 1 ó un 0
respectivamente.

De este modo, en muestras grandes y con distribuciones Binomiales no excesivamente asimétricas (tanto $n_1p_1$ y $n_2p_2$
como $n_1(1-p_1)$ y $n_2(1-p_2)$ deben ser mayores que 5), si denominamos $\widehat{p}_1$ y $\widehat{p}_2$ a la
proporción de individuos que presentan el atributo estudiado en la primera y segunda muestras respectivamente, entonces
el intervalo de confianza para la diferencia de proporciones con un nivel de significación $\alpha$ viene dado por:
\[
\left(
\begin{array}{c}
\widehat{p}_{1}-\widehat{p}_{2}-z_{\alpha /2}\cdot \sqrt{\dfrac{\widehat{p}
_{1}\cdot (1-\widehat{p}_{1})}{n_{1}}+\dfrac{\widehat{p}_{2}\cdot (1-
\widehat{p}_{2})}{n_{2}}}\ , \,
\ \widehat{p}_{1}-\widehat{p}_{2}+z_{\alpha /2}\cdot \sqrt{\dfrac{\widehat{p}
_{1}\cdot (1-\widehat{p}_{1})}{n_{1}}+\dfrac{\widehat{p}_{2}\cdot (1-
\widehat{p}_{2})}{n_{2}}}
\end{array}
\right)
\]
donde:
\begin{itemize}[label=--]
\item $n_1$ y $n_2$ son los respectivos tamaños muestrales. 
\item $\widehat{p_1}$ y $\widehat{p_2}$ son las proporciones de individuos que presentan los atributos estudiados en sus
respectivas muestras.
\item $z_{\alpha /2}$ es el valor que deja a su derecha una probabilidad $\alpha /2 $ en una distribución Normal
tipificada.
\end{itemize}

En muestras pequeñas o procedentes de unas distribuciones Binomiales fuertemente asimétricas ($n_1p_1\leq 5$, $n_2p_2\leq
5$, $n_1(1-p_1)\leq 5$ ó $n_2(1-p_2)\leq 5$) no puede aplicarse el Teorema Central del Límite y la construcción de
intervalos de confianza debe realizarse basándose en la distribución Binomial.

\subsubsection{Intervalo de Confianza para la Razón de dos Varianzas $\sigma _{1}^{2}$ y $\sigma _{2}^{2}$ de
Poblaciones Normales}

Como ya hemos visto en la sección de los intervalos de confianza para la diferencia de dos medias en poblaciones normales
con varianzas desconocidas, los mismos dependen de si las varianzas, aún siendo desconocidas, pueden considerarse iguales
o no. Para dar respuesta a esta cuestión, previa al cálculo del intervalo para la diferencia de medias, se construye un
intervalo para la razón (cociente) de varianzas de ambas poblaciones. Para ello tenemos en cuenta que si partimos de dos
variables $X_{1}$ y $X_{2}$ que siguen distribuciones normales con varianzas $\sigma_{1}^{2}$ y $\sigma_{2}^{2}$
respectivamente, y tomamos muestras de tamaños $n_{1}$ y $n_{2}$ de las respectivas poblaciones se tiene que la variable
\[
F= \dfrac{\dfrac{\hat S_{1}^{2}}{\sigma_{1}^{2}}}{\dfrac{\hat S_{2}^{2}}{\sigma_{2}^{2}}}
\]
sigue una distribución $F$ de Fisher de $n_{1}-1$ grados de libertad en el numerador y $n_{2}-1$ grados de libertad en
el denominador.

De lo anterior se deduce que el intervalo de confianza con nivel de significación $\alpha$ para $\dfrac{\sigma
_{2}^{2}}{\sigma _{1}^{2}}$ es
\[
\left( \dfrac{\hat s_{2}^{2}}{\hat s_{1}^{2}}\cdot F_{1-\alpha
/2}^{\left( n_{1}-1,n_{2}-1\right) },\ \dfrac{\hat s_{2}^{2}}{
\hat s_{1}^{2}}\cdot F_{\alpha /2}^{\left(n_{1}-1,n_{2}-1\right) }\right)
\]

Si dentro del intervalo de confianza obtenido está el número 1 (el cociente de varianzas vale la unidad), no habrá, por
tanto, evidencia estadística suficiente, con un nivel de significación $\alpha ,$ para rechazar que las varianzas sean
iguales.

\clearpage
\newpage

\section{Ejercicios resueltos}
\begin{enumerate}[leftmargin=*] 
\item  Para ver si una campaña de publicidad sobre un fármaco ha influido en sus ventas, se tomó una muestra de 8 farmacias y se midió el
número de unidades de dicho fármaco vendidas durante un mes, antes y después de la campaña, obteniéndose los siguientes resultados: 
\begin{center}
\begin{tabular}{|c||c|c|c|c|c|c|c|c|}
\hline 
Antes & 147 & 163 & 121 & 205 & 132 & 190 & 176 & 147 \\
\hline 
Después & 150 & 171 & 132 & 208 & 141 & 184 & 182 & 145\\ 
\hline
\end{tabular}
\end{center}

\begin{enumerate}
\item Crear un conjunto de datos con las variables \variable{antes} y \variable{despues}.

\item Obtener un resumen estadístico en el que aparezcan la media y la desviación típica de ambas variables. A la vista
de los resultados: ¿son las medias diferentes?, ¿ha aumentado la campaña el nivel de ventas?, ¿crees que los resultados
son estadísticamente significativos? 
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Estadísticos\flecha Resúmenes\flecha Resúmenes descriptivo}.
\item En el cuadro de diálogo que aparece seleccionar las variables \variable{antes} y \variable{despues}, activar la casilla de selección
para la \opcion{Media} y la \opcion{Desviación típica} y hacer click en el botón \boton{Aceptar}.
\end{enumerate}
}
\end{indicacion}

\item Obtener los intervalos de confianza para la media de la diferencia entre ambas variables con niveles de significación $0.05$ y $0.01$.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Estadísticos\flecha Medias\flecha Test t para datos relacionados}.
\item En el cuadro de diálogo que aparece seleccionar la variable \variable{antes} en el campo \campo{Primera variable}, la variable
\variable{después} en el campo \campo{Segunda variable}, introducir 0.95 en el campo \campo{Nivel de confianza} y hacer click en el botón
\boton{Aceptar}.
\item El intervalo de confianza para la diferencia aparece en la ventana de resultados justo después de la frase \resultado{95 percent
confidence interval:}.
\item Repetir los pasos para el intervalo de confianza  con nivel de significación $0.01$ poniendo $0.99$ en el campo \campo{Nivel de
confianza}.
\end{enumerate}
}
\end{indicacion}

\item ¿Existen pruebas suficientes para afirmar con un 95\% de confianza que la campaña de publicidad ha aumentado las
ventas? ¿Y si cambiamos los dos últimos datos de la variable \variable{despues} y ponemos 190 en lugar de 182 y 165 en
lugar de 145? Observar qué le ha sucedido al intervalo para la diferencia de medias y darle una explicación.
\begin{indicacion}{
\begin{enumerate}
\item Hacer click sobre el botón \boton{Editar conjunto de datos}.
\item En la ventana de edición de datos, cambiar los datos de las dos últimas farmacias y cerrar la ventana.
\item Repetir los pasos del apartado anterior.
\end{enumerate}
Existen diferencias entre las medias con el nivel de confianza fijado siempre que el intervalo resultante no contenga el valor 0.
}
\end{indicacion}
\end{enumerate}


\item  Una central de productos lácteos recibe diariamente la leche de dos granjas $X$ e $Y$. Para analizar la calidad de
la leche, durante una temporada, se controla el contenido de materia grasa de la leche que proviene de ambas granjas, con
los siguientes resultados:
\[
\begin{array}{ll|ll}
\multicolumn{2}{c|}{X} & \multicolumn{2}{c}{Y} \\
\hline
0.34 & 0.34 & 0.28 & 0.29 \\
0.32 & 0.35 & 0.30 & 0.32 \\
0.33 & 0.33 & 0.32 & 0.31 \\
0.32 & 0.32 & 0.29 & 0.29 \\
0.33 & 0.30 & 0.31 & 0.32 \\
0.31 & 0.32 & 0.29 & 0.31 \\
 &  & 0.33 & 0.32 \\
 &  & 0.32 & 0.33 \\
\end{array}
\]

\begin{enumerate}
\item Crear un conjunto de datos con las variables \variable{grasa} y \variable{granja}.

\item Calcular el intervalo de confianza para el cociente de varianzas del contenido de materia grasa de la leche procedente de ambas
granjas. 
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Estadísticos\flecha Varianzas\flecha Test F para dos varianzas}.
\item En el cuadro de dialogo que aparece seleccionar la variable \variable{grasa} al campo \campo{Variable explicada}, seleccionar la
variable \variable{granja} al campo \campo{Grupos}, introducir 0.95 en el campo \campo{Nivel de confianza} y hacer click sobre el botón \boton{Aceptar}.
\end{enumerate}
Se mantiene la hipótesis de igualdad de varianzas con la confianza fijada si el intervalo resultante contiene el valor 1. 
}
\end{indicacion}

\item Calcular el intervalo de confianza con un 95\% de confianza para la diferencia en el contenido medio de materia
grasa de la leche procedente de ambas granjas. 
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Estadísticos\flecha Medias\flecha Test t para muestras independientes}.
\item En el cuadro de dialogo que aparece seleccionar la variable \variable{grasa} al campo \campo{Variable explicada}, seleccionar la
variable \variable{granja} al campo \campo{Grupos}, introducir 0.95 en el campo \campo{Nivel de confianza}, marcar la opción \opcion{Si}
en el campo \campo{¿Suponer varianzas iguales?} y hacer click sobre el botón \boton{Aceptar}.
\end{enumerate}
}
\end{indicacion}

\item A la vista del intervalo obtenido en el punto anterior, ¿se puede concluir que existen diferencias
significativas en el contenido medio de grasa según la procedencia de la leche? Justificar la respuesta.
\begin{indicacion}{
Existen diferencias entre las medias con el nivel de confianza fijado siempre que el intervalo resultante no contenga el valor 0.
}
\end{indicacion}
\end{enumerate}


\item En una encuesta realizada en una facultad, sobre si el alumnado utiliza habitualmente (al menos una vez a la
semana) la biblioteca de la misma, se han obtenido los siguientes resultados:
\begin{flushleft}
\begin{tabular}{|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|}
\hline
Alumno & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12 & 13 & 14 & 15 & 16 & 17 \\
\hline
Respuesta & no & si & no & no & no & si & no & si & si & si & si & no & si & no & si & no & no \\
\hline
Sexo & H & M & M & H & H & H & M & M & M & M & H & H & M & H & M & H & H \\
\hline
\end{tabular}
\newline

\begin{tabular}{|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|}
\hline
Alumno & 18 & 19 & 20 & 21 & 22 & 23 & 24 & 25 & 26 & 27 & 28 & 29 & 30 & 31 & 32 & 33 & 34 \\
\hline
Respuesta & no & si & si & si & no & no & si & no & no & si & si & no & no & si & no & si & no \\
\hline
Sexo & M & H & M & M & M & H & M & H & H & M & M & H & H & M & M & M & H\\
\hline
\end{tabular}
\end{flushleft}

\begin{enumerate}
\item Crear un conjunto de datos con las variables \variable{respuesta} y \variable{sexo}.
\item ¿Existen diferencias significativas entre las proporciones de chicos y chicas que usan habitualmente la biblioteca? Justificar la
respuesta.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Datos\flecha Modificar variables del conjunto de datos activo\flecha Reordenar niveles de factor}.
\item En el cuadro de diálogo que aparece seleccionar el factor \variable{respuesta} y hacer click sobre el botón \boton{Aceptar}.
\item En el cuadro de diálgo que aparece asignar el valor 1 al nivel \comando{si}, el valor 2 al nivel \comando{no} y hacer click en el
botón \boton{Aceptar}.
\item Seleccionar el menú \menu{Estadísticos\flecha Proporciones\flecha Test de proporciones para dos muestras}.
\item En el cuadro de dialogo que aparece seleccionar la variable \variable{respuesta} al campo \campo{Variable explicada}, seleccionar la
variable \variable{sexo} al campo \campo{Grupos}, introducir 0.95 en el campo \campo{Nivel de confianza} y hacer click sobre el botón
\boton{Aceptar}.
\end{enumerate}
Hay diferencias entre las proporciones con el nivel de confianza fijado si el intervalo resultante no contiene el valor 0.
}
\end{indicacion}
\end{enumerate}

\item Un profesor universitario ha tenido dos grupos de clase a lo largo del año: uno con horario de mañana y otro de
tarde. En el de mañana, sobre un total de 80 alumnos, han aprobado 55; y en el de tarde, sobre un total de 90 alumnos,
han aprobado 32. ¿Existen diferencias significativas en el porcentaje de aprobados en ambos grupos? ¿Pueden ser debidas al turno horario?
Justificar la respuesta.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Estadísticos\flecha Proporciones\flecha Test para dos proporciones}.
\item En el cuadro de diálogo que aparece introducir 55 en el campo \campo{Frecuencia muestral 1}, introducir 80 en el campo
\campo{Tamaño muestral 1}, introducir 32 en el campo \campo{Frecuencia muestral 2}, introducir 90 en el campo
\campo{Tamaño muestral 2}, introducir 0.95 en el campo \campo{Nivel de confianza} y hacer click en el botón \boton{Aceptar}.
\end{enumerate}}
\end{indicacion}

\end{enumerate}



\section{Ejercicios propuestos}
\begin{enumerate}[leftmargin=*] 
\item  Se ha realizado un estudio para investigar el efecto del ejercicio físico en el nivel de colesterol en la sangre. En el estudio
participaron once personas, a las que se les midió el nivel de colesterol (en mg/dl) antes y después de desarrollar un programa de
ejercicios. Los resultados obtenidos fueron los siguientes:
\begin{center}
\begin{tabular}{|l|l|l|l|l|l|l|l|l|l|l|l|}
\hline
Nivel Previo & 182 & 232 & 191 & 200 & 148 & 249 & 276 & 213 & 241 & 280 & 262 \\
\hline
Nivel Posterior & 198 & 210 & 194 & 220 & 138 & 220 & 219 & 161 & 210 & 213 & 226 \\
\hline
\end{tabular}
\end{center}

\begin{enumerate}
\item Hallar el intervalo de confianza del 95\% para la diferencia del nivel medio de colesterol antes y después del
ejercicio.
\item Hallar el intervalo de confianza del 99\% para la diferencia del nivel medio de colesterol antes y después del
ejercicio.
\item A la vista de los intervalos anteriores, ¿se concluye que el ejercicio físico disminuye el nivel de colesterol?
\end {enumerate}

\item En una encuesta realizada en los dos hospitales de una ciudad se pregunta a los pacientes hospitalizados cuando salen del hospital por
si consideran que el trato recibido ha sido correcto. En el primero de ellos se pregunta a 200 pacientes y 140 responden que sí, mientras
que en el segundo, se pregunta a 300 pacientes y 180 responden que sí.

\begin{enumerate}
\item Calcular el intervalo de confianza para la diferencia de proporciones de pacientes satisfechos con el trato recibido.
\item ¿Hay pruebas significativas para un nivel de significación $\alpha=0.01$ de que el trato recibido en un hospital es mejor que en el
otro?
\end{enumerate}

\item El fichero \texttt{nations.txt} contiene información sobre el desarrollo de distintos países (tasa de uso de
anticonceptivos (contraception), producto interior bruto per cápita (GDP), tasa de mortalidad infantil
(infant.mortality) y tasa de fertilidad (TFR)). Se pide:
\begin{enumerate}
\item Importar el fichero \texttt{nations.txt} en un conjunto de datos.
\item Crear una nueva variable \variable{nivel\_economico} que tome el valor \comando{Ricos} para los países con un producto interior bruto
per cápita superior a 10000 US\$ y el valor \comando{Pobres} a los países con un producto interior bruto per cápita inferior a dicha
cantidad.
\item ¿Existen diferencias significativas en el uso de anticonceptivos entre los países ricos y pobres? Justificar la respuesta.
\item ¿Existen diferencias significativas en la tasa de fertiliad entre los países ricos y pobres? Justificar la respuesta.
\item ¿Existen diferencias significativas en la tasa de mortalidad infantil entre los países ricos y pobres? Justificar la respuesta.
\end{enumerate}
\end{enumerate}
